练习：目标和奖励

到目前为止，你已经见过一个如何将智能体的目标构建为最大化预期累积奖励的示例。在这道练习中，你将研究另外几个示例。

SOLUTION:

‘假设有一个智能体想要玩棋类游戏（例如双陆棋、象棋或跳棋）。哪些奖励信号将鼓励智能体赢得游戏？请选中所有适用项。'

智能体仅在游戏结束时获得奖励；如果获胜，则获得奖励 +1，如果失败了，则获得奖励 -1，如果持平，则获得奖励 0。

在依然玩游戏的每个时间步，智能体获得奖励 -1；游戏结束后，这一阶段结束。

智能体仅在游戏结束时获得奖励，如果获胜，获得奖励 -1，如果失败，获得奖励 +1，如果持平，获得奖励 0。

智能体仅在游戏结束时获得奖励，如果获胜，获得奖励 +10，如果失败，获得奖励 -10，如果持平，获得奖励 0。

SOLUTION:

SOLUTION: